Intégration de la structure dans un modèle probabiliste de documents
نویسندگان
چکیده
Résumé. En fouille de textes comme en recherche d’information, différents modèles, de type probabiliste, vectoriel ou booléen, se sont révélés bien adaptés pour représenter des documents textuels mais, ces modèles présentent l’inconvénient de ne pas tenir compte de la structure du document. Or la plupart des informations disponibles aujourd’hui sur Internet ou dans des bases documentaires sont fortement structurées. Dans cet article1, nous proposons d’étendre le modèle probabiliste de représentation des documents de façon à tenir compte du poids d’une certaine catégorie d’éléments structurels : les balises représentant la structure logique et la structure de mise en forme. Ce modèle a été évalué à l’aide de la collection de la campagne d’évaluation INEX 2006.
منابع مشابه
Optimisation des approximations de probabilité des requêtes en XML probabiliste
XML probabiliste est un modèle probabiliste pour les bases de données incertaines semi-structurées, avec des applications telles que l’intégration incertaine de données, l’extraction d’informations ou le contrôle probabiliste de versions. Nous explorons dans ce travail une solution efficace pour l’évaluation des requêtes tree-pattern avec jointures sur ces documents, ou, plus précisément, pour ...
متن کاملModèle probabiliste pour l'extraction de structures dans les documents web
RÉSUMÉ. Le développement des systèmes de gestion de contenu a profondément changé la nature du web : de plus en plus de documents sont créés automatiquement et leur mise en page reflète leur structure logique. Dans ce travail, nous montrons que l’information contenue dans la mise en page est suffisante pour inférer une structure sémantiquement riche, ce qui ouvre la voie à de nombreuses applica...
متن کاملModèles de mélanges topologiques pour la classification de données catégorielles et mixtes
Résumé. Cet article présente une méthode basée sur les cartes auto-organisatrices probabilistes dédiées à la classification non supervisée et la visualisation de données catégorielles et des données mixtes contenant des composantes quantitatives et binaires. Pour chacun de ces types de données, nous proposons un formalisme probabiliste dans lequel les unités de la carte topologique sont représe...
متن کاملContrôle de version incertaine dans l ’ édition collaborative ouverte de documents arborescents
En vue de faciliter l’enrichissement, l’échange et le partage de contenu, les plates-formes collaboratives Web telles que Wikipedia ou Google Docs permettent des interactions à large échelle entre un grand nombre de contributeurs. Cette collaboration ne requiert pas une connaissance préalable du niveau d’expertise et de fiabilité des participants. La gestion de version est donc essentielle pour...
متن کاملIPEE : Indice Probabiliste d'Ecart à l'Equilibre pour l'évaluation de la qualité des règles
Résumé. La mesure de la qualité des connaissances est une étape clef d’un processus de découverte de règles d’association. Dans cet article, nous présentons IPEE, un indice de qualité de règle qui a la particularité unique d’associer les deux caractéristiques suivantes : d’une part, il est fondé sur un modèle probabiliste, et d’autre part, il mesure un écart à l’équilibre (incertitude maximum d...
متن کامل